創建DataFrame
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
data = [{'Name': 'Alice', 'Age': 25}, {'Name': 'Bob', 'Age': 30}, {'Name': 'Charlie', 'Age': 35}]
df = pd.DataFrame(data)
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')
選擇特定的列或行:
# 選擇特定的列
df['列名']
# 選擇多列
df[['列名1', '列名2']]
# 選擇特定的行(索引為0的行)
df.loc[0]
# 選擇多行(索引為0和1的行)
df.loc[[0, 1]]
篩選資料:
# 篩選符合條件的行
df[df['列名'] > 25]
# 使用多個條件進行篩選
df[(df['列名1'] > 25) & (df['列名2'] < 30)]
排序資料:
python
Copy code
# 按照特定列進行升序排序
df.sort_values(by='列名', ascending=True)
# 按照特定列進行降序排序
df.sort_values(by='列名', ascending=False)
統計資料:
# 計算某列的平均值
df['列名'].mean()
# 計算某列的總和
df['列名'].sum()
# 獲取描述性統計資訊
df.describe()
分組和聚合:
# 按照某列的值進行分組,並計算每組的平均值
df.groupby('分組的列名')['需要聚合的列名'].mean()
# 同時計算多個聚合函數
df.groupby('分組的列名')['需要聚合的列名'].agg(['mean', 'sum'])
合併和連接:
# 合併兩個DataFrame,根據特定的列
merged_df = pd.merge(df1, df2, on='共同的列名', how='inner')
# 將兩個DataFrame按照索引進行合併
merged_df = df1.join(df2, how='inner')
遺失值處理:
# 刪除包含遺失值的行
df.dropna()
# 將遺失值填充為特定的值
df.fillna(value)
進一步的數據視覺化:
import matplotlib.pyplot as plt
# 繪製直方圖
df['列名'].hist()
# 繪製散點圖
plt.scatter(df['列名1'], df['列名2'])